通过联合学习培训的机器学习模型的收敛速度受到异构数据分区的显着影响,甚至在没有中央服务器的完全分散的设置中。在本文中,我们表明,通过仔细设计潜在的通信拓扑,可以显着降低标签分布偏斜的影响,这是一种重要的数据异质性。我们呈现D-Cliques,一种新颖的拓扑,其通过在稀疏互连的批分中分组节点来减少梯度偏压,使得Clique中的标签分布代表全局标签分布。我们还展示了如何调整分散的SGD的更新,以获得不偏的渐变,并利用D-Cliques实现有效的动量。我们对MNIST和CIFAR10的广泛实证评估表明,我们的方法提供了类似的收敛速度作为完全连接的拓扑,这提供了数据异构设置中的最佳收敛性,并且在边缘和消息的数量下显着降低。在1000节点拓扑中,D-Cliques需要98%的边缘和96%的总信息,在跨越群体中使用小世界拓扑的进一步获得。
translated by 谷歌翻译